Sélection de variables non supervisée sous contraintes hiérarchiques

نویسندگان

  • Nhat-Quang Doan
  • Hanene Azzag
  • Mustapha Lebbah
چکیده

Résumé. La sélection des variables a un rôle très important dans la fouille de données lorsqu’un grand nombre de variables est disponible. Ainsi, certaines variables peuvent être peu significatives, corrélées ou non pertinentes. Une méthode de sélection a pour objectif de mesurer la pertinence d’un ensemble utilisant principalement un critère d’évaluation. Nous présentons dans cet article un critère non supervisé permettant de mesurer la pertinence d’un sous-ensemble de variables. Ce dernier repose sur l’utilisation du score Laplacien auquel nous avons ajouté des contraintes hiérarchiques. Travailler dans le cadre non supervisé est un vrai challenge dans ce domaine dû à l’absence des étiquettes de classes. Les résultats obtenus sur plusieurs bases de tests sont très encourageants et prometteurs.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Une approche en programmation par contraintes pour la classification non supervisée

Résumé. Dans cet article, nous abordons le problème de classification non supervisée sous contraintes fondé sur la programmation par contraintes (PPC). Nous considérons comme critère d’optimisation la minimisation du diamètre maximal des clusters. Nous proposons un modèle pour cette tâche en PPC et nous montrons aussi l’importance des stratégies de recherche pour améliorer son efficacité. Notre...

متن کامل

Un critère d'évaluation pour la sélection de variables

Résumé. Cet article aborde le problème de la sélection de variables dans le cadre de la classification supervisée. Les méthodes de sélection reposent sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous présentons un nouveau critère d’évaluation fondé sur une mesure d’ambigüıté. Cette mesure est fondée sur une comb...

متن کامل

Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité

Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...

متن کامل

Variable selection in model-based clustering: A general variable role modeling

The currently available variable selection procedures in model-based clustering assume that the irrelevant clustering variables are all independent or are all linked with the relevant clustering variables. We propose a more versatile variable selection model which describes three possible roles for each variable: The relevant clustering variables, the irrelevant clustering variables dependent o...

متن کامل

Caractérisation automatique des classes découvertes en classification non supervisée

Résumé. Dans cet article, nous proposons une nouvelle approche de classification et de pondération des variables durant un processus d’apprentissage non supervisé. Cette approche est basée sur le modèle des cartes auto-organisatrices. L’apprentissage de ces cartes topologiques est combiné à un mécanisme d’estimation de pertinences des différentes variables sous forme de poids d’influence sur la...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013